Keras examples-addition_rnn

实验

发布日期: 2018-07-20

文章字数: 2.8k

阅读时长: 12 分

阅读次数:

Keras examples-addition_rnn

1、任务描述

（1）任务概述：主要是利用序列学习来实现两个整数（字符串）的加法
（2）任务分析：两个整数相加，需要通过神经网络来训练，于是不能够直接将整型作为神经网络的输入；想想办法，如果将整数和加号等都转化为字符，于是就可以用一个字符串来表示这个加法问题了；字符串表示的加法问题，可以看成是文本，于是紧接着考虑用什么语言模型来表示这个问题，由于加法问题中涉及到的字符种类不多，只有12类，‘0-9’、‘+’、‘ ’，因此可以直接考虑使用one-hot模型。

2、具体实现

（1）引入相应的库

from __future__ import print_function
from keras.models import Sequential
from keras import layers
import numpy as np
from six.moves import range
from keras.utils import plot_model

（2）定义相应的方法、设置常量

这里主要定义了两个类，一个是编码解码类，另一个是预测结果的颜色处理类。
①编码解码类：包含三个方法：构造方法，编码方法，解码方法。
构造方法：在创建编码解码对象时，会接收一个字符串，这个字符串包含了所有涉及到的字符，构造函数利用该字符串创建了两个字典，一个是{字符：索引}型字典，一个是{索引：字符}型字典。前一个字典主要在编码阶段使用，用于将一个字符转化为one-hot类型，后裔字典主要在解码阶段使用，将one-hot矩阵表示的问题转化为对应的文本。
{字符：索引}型：{‘ ‘: 0, ‘+’: 1, ‘0’: 2, ‘1’: 3, ‘2’: 4, ‘3’: 5, ‘4’: 6, ‘5’: 7, ‘6’: 8, ‘7’: 9, ‘8’: 10, ‘9’: 11}
{索引，字符}型：{0: ‘ ‘, 1: ‘+’, 2: ‘0’, 3: ‘1’, 4: ‘2’, 5: ‘3’, 6: ‘4’, 7: ‘5’, 8: ‘6’, 9: ‘7’, 10: ‘8’, 11: ‘9’}
编码方法：将传来的一个字符串编码城one-hot矩阵，具体实现是首先创建一个零矩阵，然后针对字符串的第i个字符，得到这个字符在字符字典中的索引为j，于是将零矩阵的第i行和第j列的元素置为1。直到将这个字符串的所有字符都编码。
解码方法：解码方法可以看成是编码方法的逆，将one-hot矩阵转为字符串
其实，这个类也可以利用keras内置的文本预处理方法来实现。
②颜色处理类：主要声明一些常量。

class CharacterTable(object):
    # 对于给定的一组字符
    ## 将他们编码为one-hot的整型来表示
    ## 将一个one-hot表示的解码为其字符
    ## 将概率向量解码为其字符输出
    def __init__(self,chars):
        # 初始化字符表
        self.chars=sorted(set(chars))
        # 创建字符表中字符和其索引的对应关系（字符：索引）
        self.char_indices=dict((c,i) for i,c in enumerate(self.chars))
        print(self.char_indices)
        # 创建字符表中字符和其索引的对应关系（索引：字符）
        self.indices_char=dict((i,c) for i,c in enumerate(self.chars))
        print(self.indices_char)

    # 将给定的字符串C编码成one-hot模型，参数num_rows指定这个矩阵的行数（等于问题的最大长度），列数等于字符表中总的字符数
    def encode(self,c,num_rows):     
        # 创建一个零矩阵，行数为问题的最大长度，列数等于字符表中总的字符数
        x=np.zeros((num_rows,len(self.chars)))
        # 针对问题字符串中的第i个字符
        for i,c in enumerate(c):
            # 将0矩阵的第i行和字符索引列的元素设置为1
            x[i,self.char_indices[c]]=1
        # 返回对字符串编码后的矩阵
        return x

    def decode(self, x, calc_argmax=True):
        if calc_argmax:
            x = x.argmax(axis=-1)
        return ''.join(self.indices_char[x] for x in x)
class colors:
    ok = '\033[92m'
    fail = '\033[91m'
    close = '\033[0m'
# 设置训练集大小    
TRAINING_SIZE=50000
# 设置加数的最大位数
DIGITS=3
# 是否逆序
REVERSE=True

# 问题的最大长度
MAXLEN=DIGITS+1+DIGITS

# 所有字符
chars="0123456789+ "
# 创建字符表对象
ctable=CharacterTable(chars)

{' ': 0, '+': 1, '0': 2, '1': 3, '2': 4, '3': 5, '4': 6, '5': 7, '6': 8, '7': 9, '8': 10, '9': 11}
{0: ' ', 1: '+', 2: '0', 3: '1', 4: '2', 5: '3', 6: '4', 7: '5', 8: '6', 9: '7', 10: '8', 11: '9'}

（3）构造训练数据

训练数据我们通过随机产生的整数来构造问题，通过整数相加的得到问题的答案，接着将问题和答案都字符化，并分别将每个问题和答案都用空格来填充至固定大小。最终问题的格式为：”——45+0”,答案的格式为：”54—“(“—”表示空格，这里已经将问题前后逆转了)。具体见下面代码。

questions=[]
expected=[]
seen=set()
print("Generating data...")
while len(questions) < TRAINING_SIZE:
    # ——————————————————————————————————————
    # np.random.choice
    # 参数意思分别是从给定的候选集中以概率P随机选择, p没有指定的时候相当于是一致的分布，replacement决定是否放回，size决定选择的个数
    # randint是在[1,4)之间随机产生一个整数，这个整数决定此次产生的字符串的长度，然后依次随机从0-9中选择一个数字，最后拼接起来
    # ——————————————————————————————————————
    f=lambda: int("".join(np.random.choice(list("0123456789")) for i in range(np.random.randint(1,DIGITS+1))))
    a,b=f(),f()
    # 将随机选择的两个整数排序
    key=tuple(sorted((a,b)))
    # 如果此次选择的加法问题已经存在了，则忽略
    if key in seen:
        continue
    seen.add(key)
    # 构造问题，组装成a+b的字符串
    q="{}+{}".format(a,b)
    # 用空格来填充问题成预设的最大长度
    query=q+" "*(MAXLEN-len(q))
    # 构造问题的答案
    ans=str(a+b)
    # 用空格来填充答案，使其长度为4
    ans+=" "*(DIGITS+1-len(ans))
    # 如果需要逆序
    if REVERSE:
        query=query[::-1]
    # 将构造的问题和答案加入相应的列表
    questions.append(query)
    expected.append(ans)
print('Total addition questions:', len(questions))

Generating data...
Total addition questions: 50000

（4）将训练数据向量化

这一部分就是调用预先写好的编码解码类来将问题和答案转化为one-hot模型。

print("Vectorization...")
# 将x初始化为（样本数，每个问题的最大长度，总的字符数）的布尔型矩阵
x=np.zeros((len(questions),MAXLEN,len(chars)),dtype=np.bool)
y=np.zeros((len(questions),DIGITS+1,len(chars)),dtype=np.bool)
# 针对训练问题集中的每一个问题，对其进行编码，one-hot模型，一个问题编码后对应一个矩阵
for i,sentence in enumerate(questions):
    x[i]=ctable.encode(sentence,MAXLEN)
for i,sentence in enumerate(expected):
    y[i]=ctable.encode(sentence,DIGITS+1)

Vectorization...

（5）将训练集随机化

indices=np.arange(len(y))
np.random.shuffle(indices)
x=x[indices]
y=y[indices]

（6）划分训练集和测试集

split_at=len(x)-len(x)//10
(x_train,x_val)=x[:split_at],x[split_at:]
(y_train,y_val)=y[:split_at],y[split_at:]

# 查看训练集和验证集数据信息
print("Training Data:")
print(x_train.shape)
print(y_train.shape)

print("Validation Data:")
print(x_val.shape)
print(y_val.shape)

Training Data:
(45000, 7, 12)
(45000, 4, 12)
Validation Data:
(5000, 7, 12)
(5000, 4, 12)

（7）搭建网络结构

网络结构通过keras的序列模型搭建起来，其结构图如图所示：
网络结构图

RNN=layers.LSTM
HIDDEN_SIZE=128
BATCH_SIZE=128
LAYERS=1

print("Building model...")
model=Sequential()
model.add(RNN(HIDDEN_SIZE,input_shape=(MAXLEN,len(chars))))
model.add(layers.core.RepeatVector(DIGITS+1))
# 创建LAYERS层的RNN网络层
for _ in range(LAYERS):
    model.add(RNN(HIDDEN_SIZE,return_sequences=True))
model.add(layers.TimeDistributed(layers.Dense(len(chars))))
model.add(layers.Activation("softmax"))
model.compile(loss="categorical_crossentropy",optimizer="adam",metrics=['accuracy'])
model.summary()

Building model...
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_1 (LSTM)                (None, 128)               72192     
_________________________________________________________________
repeat_vector_1 (RepeatVecto (None, 4, 128)            0         
_________________________________________________________________
lstm_2 (LSTM)                (None, 4, 128)            131584    
_________________________________________________________________
time_distributed_1 (TimeDist (None, 4, 12)             1548      
_________________________________________________________________
activation_1 (Activation)    (None, 4, 12)             0         
=================================================================
Total params: 205,324
Trainable params: 205,324
Non-trainable params: 0
_________________________________________________________________

其中，部分API的功能介绍如下：
①keras.layers.core.RepeatVector(n)：将输入重复n次
参数n：整数，重复的次数
输入shape：形如（nb_samples, features）的2D张量
输出shape：形如（nb_samples, n, features）的3D张量
②keras.layers.wrappers.TimeDistributed(layer)：该包装器可以把一个层应用到输入的每一个时间步上，这个有点难理解，在网上找到了一篇通俗易懂的解释，看了好半天才才理解到（智商是硬伤）。地址：https://blog.csdn.net/u012193416/article/details/79477220

（8）训练和预测

# train the model each generation and show predictions against the validataion dataset
for iteration in range(1,200):
    print()
    print("-"*50)
    print("Iteration",iteration)
    model.fit(x_train,y_train,batch_size=BATCH_SIZE,epochs=1,validation_data=(x_val,y_val))

--------------------------------------------------
Iteration 1
Train on 45000 samples, validate on 5000 samples
Epoch 1/1
45000/45000 [==============================] - 7s 148us/step - loss: 1.8855 - acc: 0.3222 - val_loss: 1.8006 - val_acc: 0.3410
.........
--------------------------------------------------
Iteration 199
Train on 45000 samples, validate on 5000 samples
Epoch 1/1
45000/45000 [==============================] - 6s 136us/step - loss: 0.0014 - acc: 0.9997 - val_loss: 0.0027 - val_acc: 0.9991

上面就是使用处理好的数据来训练网络的过程，一共训练200轮（不知道是否理解有误），这段代码与下面这句代码等效：

model.fit(x_train,y_train,batch_size=BATCH_SIZE,epochs=200,validation_data=(x_val,y_val))

接下来就是测试模型的性能了，从验证集里随机产生10个问题，通过模型得到预测的答案，

# select 10 samples from the validation set at random so we can see errors
for i in range(10):
    # 从验证集数据的索引范围内随机产生一个索引
    ind=np.random.randint(0,len(x_val))
    # 通过索引，获取问题的内容和问题答案
    rowx,rowy=x_val[np.array([ind])],y_val[np.array([ind])]
    # 通过模型预测答案
    preds=model.predict_classes(rowx,verbose=0)
    # 将问题解码
    q=ctable.decode(rowx[0])
    # 将答案解码
    correct=ctable.decode(rowy[0])
    # 将预测的结果解码
    guess=ctable.decode(preds[0],calc_argmax=False)
    # 构造输出格式
    print("Q:",q[::-1] if REVERSE else q,end=" ")
    print('T:',correct,end=" ")
    # 根据是否正确选择不同的输出格式
    if correct == guess:
        print(colors.ok + '☑' + colors.close, end=' ')
    else:
        print(colors.fail + '☒' + colors.close, end=' ')
        print(guess)

Q: 948+50  T: 998  [92m☑[0m Q: 324+89  T: 413  [92m☑[0m Q: 50+424  T: 474  [92m☑[0m Q: 910+2   T: 912  [92m☑[0m Q: 15+157  T: 172  [92m☑[0m Q: 660+0   T: 660  [92m☑[0m Q: 453+32  T: 485  [92m☑[0m Q: 4+263   T: 267  [92m☑[0m Q: 6+424   T: 430  [92m☑[0m Q: 92+942  T: 1034 [92m☑[0m

# model.fit(x_train,y_train,batch_size=BATCH_SIZE,epochs=200,validation_data=(x_val,y_val))

（9）网络结构可视化

plot_model(model, to_file='addition_rnn_model.png')

3、小结

通过这一次实验，收获肯定是有的。首先是将一个实际问题转化为网络结构能过处理的一个问题。转化为什么问题，采用什么模型来解，这些都是很重要的；接着就是数据的构造、one-hot模型的实现，虽然以前也手写代码实现过one-hot模型，但是这次通过自己构造数据，然后不通过接口来将数据转化为one-hot模型，这是第一次遇到，因此学会了这种情况的处理方式。最后就是keras的一些层的使用，比如说RepeatVector()和TimeDistributed()，由于才开始学keras，看了文档没多久就忘记了，即使不忘，有些层也只知道个大概，具体怎么用还是不清楚。通过这个例子，里面涉及到了这两个层，然后我也去查了这两个层的资料，至少现在知道了是怎么使用的。那这一篇就这样吧！

IrvingBei

https://irvingbei.github.io/2018/07/20/Keras examples-addition_rnn (1)/